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CPU/ATI GPU 混合 体系 结构 上 
DGEMM 的 性 能 研究 


FEE FXE 谭 光明 


摘要 : ”本 文 报道 了 我 们 在 CPU/ATI GPU 混合 体系 结构 上 优化 双 精 度 矩 阵 乘 法 (DGEMM) 的 工作 。 在 真 


实 应 用 中 ， C 


PU 与 图 形 处 理 费 (GPU) 之 间 的 数据 传输 是 影响 性 能 的 关键 因素 。 由 于 软件 流水 可 以 降低 


数据 传输 开销 ， 我 们 提出 了 三 种 软件 流水 算法 ， 分 别 是 双 缓 存 (Double Buffering)、 数 据 重 用 (Data Reuse? 


性 能 达到 758 


和 数据 存储 优化 (Data Placement). Æ AMD 公司 的 图 形 处 理 器 (GPU) ATI HD5970 上 ， 优 化 后 DGEMM 


GFLOP/s， 对 应 效率 为 82%， 是 ACML-GPU v1.1 性 能 的 两 倍 。 在 Intel Westmere EP 和 ATI 


HD5970 组 成 的 异 构 系统 上 , 性 能 达到 844 GFLOP/s, 效率 为 80%。 我们 进一步 考察 了 多 个 CPU 和 多 个 GPU 
上 DGEMM 的 扩展 性 ， 详 细 分 析 了 体系 结构 方面 的 影响 因素 。 分 析 表 明 ，PCIe 总 线 和 内 存 总 线 的 竞争 是 异 


构 系 统 上 程序 1 


性 能 降低 的 重要 影响 因素 。 


关键 词 高 性 能 计算 GPU CAL 和 矩阵 乘法 


E 
su 
ni 


双 精 度 矩 阵 乘法 是 影响 科学 和 工程 领域 多 种 应 用 性 能 的 重要 因素 。 多 种 关键 数值 算法 ， 


如 BLAs3!U 


J 和 LU 分 解 疡 ， 都 依赖 于 DGEMM 的 高 性 能 实现 。 而 全 球 超 级 计算 机 排名 的 依 


据 一 一 HPLBG 测 试 程 序 则 是 由 稠密 矩阵 的 LU 分 解构 成 。 由 于 DGEMM 的 性 能 很 大 程度 上 依 


赖 于 计算 机 硬件 ， 许 多 处 理 器 厂商 开发 了 基于 特定 机 器 的 DGEMM， 如 英特尔 的 MKL 和 
AMD” 的 ACML， 并 且 在 各 自 的 多 核 处 理 器 上 进一步 优化 BLAS 库 。 图 形 处 理 器 (GPU ) 的 
浮 点 峰值 性 能 比 通用 CPU 高 出 一 个 数量 级 以 上 ， 例 如 AMD HD5970 双 精 度 浮 点 性 能 达到 
928 GFLOP/s; NVIDIA Tesla C2070 的 双 精 度 浮 点 峰值 性 能 为 515 GFLOP/s。 众 所 周知 ， 


DGEMM 是 计算 密集 型 程序 ， 访 存 比较 规律 ， 这 使 其 适合 在 GPU 上 进行 优化 。 事 实 上 ， 已 


经 有 许多 在 


GPU 上 优化 DGEMM 的 工作 0 72152324]。 以 前 的 工作 大 多 数 针 对 DGEMM 的 


计算 矩阵 已 经 存储 在 显存 上 的 情况 ， 对 DGEMM 在 GPU 上 的 实现 进行 优化 。 当 前 ， 在 许多 


GPU 


通过 PCIe 总 线 作为 加 速 部 件 与 CPU 相连 。 在 实际 应 用 中 ， 初始 时 DGEMM 的 


计算 矩阵 都 存放 在 CPU 主 存 上 。 由 于 GPU 只 能 使 用 存储 在 GPU 显存 上 的 数据 ， 因 此 GPU 


计算 DGEM 


规模 数据 需要 CPU 与 GPU 之 间 进 行 多 次 数据 传输 。 


M 之 前 需要 进行 CPU 与 GPU 之 间 的 数据 传输 。 由 于 GPU 显存 容量 的 限制 ， 大 


CPU/GPU 的 异 构 系统 中 ， 存 储 层 次 之 间 的 数据 传输 对 DGEMM 的 性 能 有 重要 影响 。 从 
系统 的 角度 看 存储 层次 分 为 两 层 : CPU 的 主 存 和 GPU 的 显存 。 首 先 ，CPU 通过 PCIe 总 线 


向 GPU 显存 传输 数据 ， 然 后 GPU 泻 染 器 (shader) 从 显存 取 数 据 计 算 。GPU HD5970 的 显 
存 峰值 带宽 为 256 GB/s, Mi PCIe 总 线 的 峰值 带宽 是 8 GB/s。 虽 然 DGEMM 是 计算 密集 型 ， 


但 这 两 个 带宽 的 差异 仍然 是 异 构 系统 上 DGEMM 总 体 性 能 的 瓶颈 。 中 里 直人 CN. Nakasato) 


PF 指出 ， 如 果 将 CPU 与 ATI Cypress GPU 之 间 数 据 传输 时 间 计 入 DGEMM 的 总 


在 引文 [15]9 


TE 


IR], DGEMM 的 效率 会 从 85% 降 至 5596. AMD 基于 CPU-ATI GPU 异 构 系统 开发 的 GEMM 


1 Basic Linear 


Algebra Subprograms 基础 线性 代数 程序 外 


Ar 


” 超 威 〈 港 台 通常 译作 “ 超 微 ”) 


12 


CPU/ATI GPU 混合 体系 结构 上 DGEMM 的 性 


RKE, BEA 


优化 DGEMM 和 分 析 未 来 混合 体系 结构 的 趋势 ,都 需要 对 每 个 存 
了 解 当 前 的 CPU-GPU 异 构 体 系 结构 ， 存 储 层次 对 DGEMM If e 
响 。 虽然 之 前 已 经 有 一 些 DGEMM 在 GPU 的 优化 工作 , 但 


其 对 于 CPU/GPU 异 构 系 统 。 


本 文通 过 对 多 核 CPU/Cypress GPU FRAKT 
来 减少 存储 层次 间 数 据 传输 的 


a 
GG 
zn 


E 这 种 效率 下 降 现 象 。 


嵌 层 次 进行 定量 分 析 : 
能 到 底 产生 了 多 大 影 


H 


本 文 的 主要 贡献 有 三 点 : 


E 
2096, [X] 


Buffering)、 数 据 重 
DGEMM 在 一 个 Cypress GPU E, f 
的 DGEMM 性 能 是 ACML-GPU v1.1 1] 2 倍 多 。 在 ATIHD5970 | 


fL RE. 


分 析 显 示 ， 数 据 
此 数据 传输 的 


f 


定量 分 析 了 异 构 体 系 结构 上 的 DGEMM 性 能 ， 
Hed Ee 
销 对 DGEMM 的 性 能 有 笑 
针对 大 规模 的 DGEMM 提出 了 新 的 流水 算法 。 三 种 优化 方法 依次 是 : 双 绥 存 优化 (Double 


用 优化 (Data Reuse )、 数 据 存储 优化 (Data Placement)。 优 化 后 的 
FE 能 达到 408GFLOP/s， 对 应 效率 达到 88%。 优 化 后 


总 


DGEMM 


大 影响 。 


究 来 解决 上 述 问题 。 
肖 ， 我 们 在 这 个 异 构 系 统 上 得 到 了 DGEMM 的 快速 实现 。 


少 有 文章 进行 了 定量 的 分 析 ， 尤 


通过 设计 新 算法 


中 详细 分 析 了 CPU-GPU 之 间 数 据 传 
时 间 的 40%， 而 不 是 


先前 工作 得 到 的 


E, ER DGEMM 


性 能 达到 758GFLOP/s， 对 应 效率 为 82%; 混合 版 DGEMM 在 Intel Westmere EP/ATI 


HD5970 的 异 构 系 统 上 ， 作 


最 后 
分 析 了 PCIe 354 
性 的 3 
程序 的 影响 。 


2 


我 们 的 性 
前 端的 GPU。ATI HD5870 ] 


和 


背景 


这 部 分 主要 介 


ACML-GPU JH 
ACML-GPU ! 


2.1 Cypress GPU 


一 个 Evergreen GPU i5 Hr f£ ' 
成 了 多 个 计算 单元 、 一 个 控制 单 


元 (又 称 为 线程 分 发 部 件 )、 存 


储 控 4 
分 发 


由 器 和 DMA“ 引 擎 。 为 了 充 
挥 浮 点 操作 的 吞吐 量 ， 


Cypress GPU 微 体 系 结构 采用 单 
指令 流 多 数据 流 (SIMD) 和 超 


KS (VLIW). | 


F 


? Compute Abstraction Layer， 计 算 抽 象 层 〈 亦 有 译作 “计算 提取 


4 Direct Memory Access, 


能 达到 844GFLOP/s， 为 峰值 


内 存 竞争 。 从 中 得 出 ， 资 源 竞 争 (PCIe 竞争 和 内 存 竞 争 ) 是 可 扩 


FE 要 瓶 贷 之 一 。 然 而 ， 单 纯 凭借 软件 方式 不 能 完全 避免 资源 竞争 对 DGEMM 整 


主要 介绍 Cypress 的 儿 个 重要 特性 


' 数据 传输 

' 应 用 空间 | 内 存 总 线 诈 远程 存储 
L] 

L] 

L] 

L] 


CPU 主 存 


Kli. CAL 系统 在 CPU 与 ATI GPU 间 的 存储 


Ml 


直接 内 存 访问 


性 能 的 80%。 


， 我 们 分 析 了 将 DGEMM 扩展 到 多 个 CPU 和 多 个 GPU 时 的 资源 竞争 情况 ， 


重点 


能 优化 主要 针对 ATI Evergreen GPU 体系 结构 ，Cypress 是 Evergreen 系列 中 最 
封装 了 一 个 Cypress 卡 ， 而 HD5970 集成 了 两 个 Cypress F- 
ATI CAL36 软 件 层 面 上 的 存储 层次 。 我 们 将 
PI] DGEMM 程序 作为 基准 程序 ， 并 以 它 为 基础 进行 性 能 优化 ， 因 
DGEMM 进行 详细 分 析 ， 从 中 寻找 优化 途径 。 


此 我 们 对 


数据 传输 
'PCle&Z |zkitzefis 


* [DMA 
， [38 


EX 
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DGEMM 在 GPU 上 的 核心 程序 (kernel) “的 优化 不 是 本 文 的 着 重点 ， 在 这 里 我 们 不 详细 
述 GPU 微 体 系 结构 的 细节 。 本 文 使 用 文献 [15] 中 的 核心 程序 ， 其 效率 为 80%。 简 单 讲 ， 一 
个 Cypress 卡 当 频 率 为 725MHz 时 单 精度 浮 点 峰值 性 能 为 2.32TFLOP/s， 双 精度 浮 点 操作 性 
能 是 单 精度 性 能 的 15， 因 此 在 725MHz 频率 下 双 精 度 浮 点 操作 的 峰值 性 能 为 464GFLOP/s。 


图 1 画 出 了 CAL 软件 


MR 


细 介 


核心 程序 既 可 以 
程 存 储 空 
远程 存储 进一步 分 为 可 


eR DE 2 


间 不 在 显卡 


层次 特征 : 


嵌 两 部 分 。 本 地 存储 指 显 存 ， 为 显卡 上 
FEF， 但 GPU 仍 可 访问 的 存储 空 


把 GPU 寄存 器 中 的 数据 写 
间 的 操作 相对 本 地 存储 的 操作 有 更 长 的 延迟 ， 因 
缓存 CcachedD 部 分 和 不 可 
系统 将 HD5970 的 远程 存储 划分 为 1788MB 的 不 可 
丸 此 ， 选 择 哪 种 存储 空间 作为 CPU 与 GPU 之 间 的 共享 数据 空间 ， 将 会 


系统 层面 CPU/ATI GPU 的 异 构 体 系 结构 的 存储 
使 用 CAL 系统 中 与 程序 优化 密切 相关 的 存储 


© CAL 系统 将 物理 存储 划分 为 本 地 存储 和 远程 存 
的 高 速 存储 。 远 程 存储 指 物理 存储 空 
CPU 主 存 的 部 分 空间 )。 本 地 存储 和 远程 存储 都 可 


@ CAL 应 用 中 初始 数据 存放 在 
数据 传输 : 应 用 空 
系统 的 固定 内 存 

程 存储 空间 ， 使 其 

传输 。 一 些 应 用 

， 同 样 存在 固 

次 之 间 适 当 的 组 织 ( 


2.2 DGEMM 


CPU 的 应 用 衬 


使 用 CUDA? PKH, 
定 内 存 的 技术 ， 但 固 


加 显存 ， 也 可 直接 写 
此 这 利 


H 


县 次 。 下 面 我 们 详 


ju CRI 


GPU 核心 程序 读 取 。 换言之 , GPU 
远程 存储 。! 
存储 方式 的 性 
缓存 〈uncached) 部 分 。 


于 对 远 
生 能 较 低 。 
» CAL 


例如 


绥 存 存储 和 500MB 的 可 缓存 存储 。 


间 。GPU 核心 程序 使 用 数据 前 需 
间 和 远程 存储 之 间 与 远程 存储 和 本 地 存储 之 间 。 一 种 优化 方法 


[ 接 将 CPU 应 用 空 
直接 进行 DMA 传输 。 这 种 方法 省 去 了 从 应 用 空 
通过 这 种 方法 有 效 地 提升 了 性 能 。 


间 到 


定 存储 在 大 小 等 方面 存在 限制 。 因 
如 流水 线 算法 ) 来 降低 PCIe 总 线 上 的 数据 传输 时 间 是 十 分 必要 的 。 


本 节 


述 大 规模 DGEMM 在 CPU/ATI GPU 异 构 
系统 上 的 算法 ， 原 始 数据 存储 在 CPU 的 应 用 空 


SME 


DGEMM 计算 C: =alpha x Ax B +betaxC ， 其 中 A、 


B 和 C 分 别 是 规模 为 mxk、 


mxn 的 矩阵。 涉 


kxn, 


及 DGEMM 的 实际 应 用 中 ， 这 三 个 逢 阵 的 规模 较 大 ， 


不 能 全 部 存储 在 GPU E 


。 因 此 ， 这 


显存 


划分 为 多 个 子 矩 阵 块 ,每 次 将 几 个 矩阵 块 传输 到 
显存 ， 进 行 部 分 DGEMM 计算 。 划 分 算法 将 A、B、C 划分 为 A={444 


三 个 矩阵 被 
GPU 


4 
影 


间 的 数据 传输 到 远 
远程 存储 的 数据 
在 CAL 系统 
此 ， 通过 存储 层 


响 程 序 的 性 


要 进行 两 次 
是 利用 


图 2. 


和 矩阵 块 划分 


B-([B,B,,.-,B,], C-(C,C,,-,C,,]. Huh p M q 依赖 于 显存 大 小 。 以 p=2，q=2 为 例 ， 
矩阵 块 乘法 如 图 2 所 示 。 
图 21 划分 产生 了 四 个 独立 的 C TIERE, C,-A;xB;. C;-Aj,xB;. C5-A;xB,. C4-A;xB;, 


ix Uu XB EEBGs TSEIH HOTEL, "pu 
THE 
(cache). 分 块 和 寄存 器 分 块 )。 
法 1。 远 程 存储 作为 CPU 和 GPU 


? kernel: 在 GPU 上 实现 的 DGEMM 核心 程 
€ Compute Unified Device Architecture， 一 种 


序 


之 间 的 
存储 ) 之 间 传 输 数 据 必须 经 过 远程 存储 (第 1 行 )。 


XH 


ITE WEATER, RIH 
阵 传 入 显存 ，DGEMM 核心 程序 将 这 些 子 矩阵 进一步 划分 为 更 小 的 外 


共享 空 


14 


Bs (NVIDIA) jfi 


RJ, CPU 的 应 月 


Ha 
算法 1 的 伪 代 码 中 ， 


通用 并 行 计算 架构 


依赖 的 A 和 B 
Epe P3935 (如 缓存 
基于 ATI CAL 系统 的 存储 层次 ， 大 规模 DGEMM 实现 如 算 
间 与 GPU 的 显存 (本 地 
加 载 数据 到 GPU 包 


CPU/ATI GPU 混合 体系 结构 上 DGEMM 的 性 


研究 


a 


Inl 


含 两 个 步骤 (Joaad; 和 oad2)， 将 数据 写 回 CPU 内 存 为 1 个 步骤 (store)。 事 实 上， 第 
5 行 DGEMM mult 核心 程序 的 操作 中 隐 式 地 包含 了 另 一 个 数据 写 回 操作 一 一 子 矩 阵 C 的 
数据 从 GPU 寄存 器 写 回 到 远程 存储 。 


Partition: A={Ay, Az hp}, B-(B, B»,..., Ba], C={Cy, C; s Cpl 

Work unit: WU-(C;-A;*B;, C;-A1*Bs...] 
HM 
1. bind remote memory for sub-matrices A,B,C 
2. for each workunit wu; do //i-1,2,...,pxq 

//load1 
3. copy both A; and Bi from application space into remote memory 


//load2 
4. copy both A; and B; from remote memory to local memory 
//mult 
5. calculate C; on GPU device and directly output it to remote memory 
//store 
6. copy Cifrom remote memory to application space (also multiply by beta) 
7. endfor 


算法 1. DGEMM 的 原始 实现 


我 们 将 算法 1 作为 进行 性 能 对 比 的 基准 程 mult store load, load; 

序 。 下 面 我 们 给 出 异 构 CPU/GPU 系统 上 — 7 
DGEMM 运行 时 各 部 分 的 详细 衣 析 。 几 3 给 出 8096 

算法 1 的 每 部 分 时 间 。 由 于 不 同 问题 规模 下 忌 Due 
DGEMM 各 部 分 时 间 比 例 有 着 近似 的 分 布 ， 我 m 5096 
们 以 k-2048 为 例 ,x 轴 值 为 m(m 表 示 和 矩阵 规模 。 q 4096 
我 们 发 现 GPU mult 核心 程序 占用 了 大 部 分 时 e 
H KF 70%)， 而 其 余 的 三 部 分 数据 传输 总 共 10% 
占据 不 到 30% 的 运行 时 间 ， 直 观 上 数据 传输 的 9% 16384 20480 24576 28672 32768 
时 间 可 以 被 核心 程序 的 计算 时 间 所 掩盖 。 为 了 寻 和 矩阵 规模 
找 可 并 行 执行 的 操作 ， 我 们 将 DGEMM 算法 中 图 3. DGEMM 原始 实现 的 时 间 组 成 


使 用 资源 分 为 : GPU，CPU+ 内 存 总 线 ，PCIe 总 
线 三 部 分 ， 这 三 种 资源 间 的 操作 可 以 并 行 执行 。 


表 1 给 出 了 算法 1 中 各 部 分 的 资源 占用 PEL 算法 1 中 各 步 资 源 分 本 1 
情况 .Joad; M store 占用 CPU+ 主 存 总 线 ， 总 线 PCIe 总 线 
load; 只 需要 PCIe 总 线 来 传输 数据 。Mult 
核心 程序 在 GPU 上 执行 ， 通 过 PCIe 总 线 将 
结果 输出 到 CPU 主 存 。 根 据 资源 分 配 情 况 ， 
利用 软件 流水 算法 来 重 闭 数据 传输 (loadi,， 
loads, store) 和 mult 核心 程序 是 可 行 的 。 杨 灿 群 (Canqun Yang) 等 人 也 实现 了 利用 
流水 线 算 法 使 loadi 和 mult 重 针 执行 | 中。 然而 ， 正 如 他 们 文章 中 所 说 及 本 文 第 4 部 分 的 
实验 结果 显示 ， 简 单 的 流水 线 算法 对 性 能 的 提升 并 不 明显 (大 概 20%)。 事 实 上 ， 算 法 1 的 
执行 时 间 主 体 为 mult 核心 程序 。 先 前 算法 中 mult 核心 程序 都 是 直接 将 计算 结果 从 寄存 
器 写 回 远程 存储 ， 其 中 mult 核心 程序 部 分 除了 包含 矩阵 乘法 计算 还 包含 从 PCIe 总 线 写 回 
数据 。 这 样 ， 在 使 用 流水 线 后 ， 核 心 程序 中 的 数据 传输 成 为 性 能 瓶颈 。 因 为 : (DD. PCIe 带 
宽 小 于 GPU 显存 /CPU 主 存 带宽 ; (2). mult 写 回 的 数据 会 比 load» 操作 中 传输 的 数据 大 。 
例如 LINPACK 中 的 DGEMM, k xé/ T: m 和 m， 因 此 输出 的 C 和 矩阵 大 小 mxn 大 于 输入 的 


lin. 
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> 


好 。 
3 ”流水 线 算法 


软件 流水 是 使 计算 和 存储 操作 重 登 的 通 上 
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HERE A, B 的 大 小 kx (m+n)。 并 且 如 下 一 节 所 说 ， 可 以 通过 进 

load, 中 的 数据 传输 次 数 。 因 此 我 们 优化 流水 线 算法 使 浮 点 操作 和 数据 传输 操作 重 炙 得 更 


3.1 双 缓 存 优化 (Double Buffering) 


Partition: A={Ay, As, ..., Ap], B={B1y, B5...., B4], 
C={Cy, C us Cpu] 

Work unit: WU-(C;-A;*B;, C2=A1*B2...} 
Cj: the sub-matrices C is partitioned into blocks 
VIII 
1. bind remote memory for sub-matrices A,B,C 
2. for each workunit wu; do //i=1,2,...,pxq 

//load1 
3. copy both A; and B; from application space 
into remote memory 

//load2 
4. copy both A; and B; from remote memory to 
local memory 

//mult 
5. calculate Ci1 on GPU device and output it to 
remote memory 
6. for each block Ci do //j22,3... 

//store 
7. copy Cijiform remote memory to 
application space (also multiply by beta) 
//mult 
8. calculate Cj; on GPU device and output it 
to remote memory 
9. endfor 
//store 

10. copy the last Cijform remote memory to 
application space (also multiply by beta) 

11. endfor 


算法 2. AANER (Double 


Buffering) 的 DGEMM 


Ti 


写 回 C 矩阵 的 store 操作 


Vol.9 No.6 
Nov. 2011 


步 开 发 数据 重用 优化 来 降低 


方法 。 算 法 1 中 有 loadi、1load,、store 三 
个 显 式 的 存储 操作 在 CPU 和 GPU 之 间 传 输 数据 ， 乘 法 操作 (mult) 直接 输出 结果 到 远程 
存储 。 因 此 ， 用 流水 线 算法 实现 mult 和 三 个 存储 操作 的 》 


行 执行 是 必要 的 。 


Partition: A-(A;, Az ..., Ap], B={B1, B...., Bg], 
C={Cy Cz Cpl 
Work unit: WU-(C;-A;*B;, C;-A1*Bs...] 
Cj: the sub-matrices C is partitioned into blocks 
MI 
1. bind remote memory for sub-matrices A,B,C 
//pre-processing 
Allocate workunits in a wriggled way 
//the for-loop is pipelined 
2. for each workunit wu; do //i-1,2,...,pxq 
//load1 
3. copy either A; or B; from application space 
into remote memory according to the 
indicators 
//load2 
4. copy either A; or B; from remote memory to 
local memory according to the indicators 
//mult 
5. calculate Ci1 on GPU device and output it to 
remote memory 
6. for each block Ci do //j=2,3... 
//store 
7. copy Cijiform remote memory to 
application space (also multiply by beta) 
//mult 
8. calculate Cj; on GPU device and output it 
to remote memory 
9. endfor 
//store 
10. copy the last C; j form remote memory to 
application space (also multiply by beta) 
11. endfor 


算法 3. 结合 数据 重用 优化 (Data 


Reuse) 的 DGEMM 


实现 了 数据 传输 和 少量 的 浮 点 计算 (beta x C), 占用 一 定 CPU 


资源 。 为 隐藏 写 回 C 矩阵 的 开销 ， 一 种 方法 是 在 不 同 


作 单元 间 实 现 流水 。 例 如 ， 当 工作 


单元 i 执行 store 操作 时 ,工作 单元 i+1 的 mult 操作 可 以 同时 进行 。 这 种 流水 线 存 在 两 个 


WH. H, load 和 store 之 间 存 在 资源 冲突 ， 
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因为 他 们 都 是 在 应 用 空间 和 CAL 的 远程 


CPU/ATI GPU 混合 体系 结构 上 DGEMM 的 性 能 研究 


存储 〈CPU 主 存 的 一 部 分 ) 之 间 进 行 数据 传输 ， 资 源 的 冲突 降低 流水 线 效 率 。 其 次 ， 远 程 
存储 空间 的 大 小 有 限 ， 尤 其 是 可 缓存 远程 存储 。 由 于 store 操作 在 CPU 部 分 执行 ， 因 此 利 
用 可 缓存 远程 存储 空间 保存 产生 的 C 子 和 矩阵 。 但 缓存 空间 大 小 限制 流水 线 中 可 并 发 执行 的 
工作 单元 数量 。 


一 个 更 好 的 策略 是 在 一 个 工作 单元 中 开发 更 细 粒 度 的 流水 线 。 算 法 2 给 出 了 细 粒 度 流 水 
线 的 伪 代 码 ， 将 生成 的 C 子 和 矩阵 块 进 一 步 划 分 成 更 细 的 子 块 ， 这 些 子 块 用 流水 方式 执行 。 
我 们 开发 了 双 缓 存 算 法 ,在 可 绥 存 远程 存储 上 开辟 两 个 缓存 空间 。 对 于 算法 2 第 6-9 行 的 每 
个 for 循环 , store 操作 将 一 个 缓存 的 子 矩 阵 块 Cu 写 回应 用 空间 , [RISE mult 计算 下 一 个 
子 矩阵 块 C4 并 将 其 写 回 到 另 一 个 缓存 空间 。 流 水 过 程 中 ，muJt 和 store 交替 使 用 这 两 
个 缓存 空间 。 由 于 GPU 的 核心 程序 以 异步 的 方式 执行 ， 因 此 对 于 每 个 循环 mult 和 store 
都 可 以 并 行 执行 。 

3.2 数据 重用 优化 (Data Reuse? 

MEH, load load: 和 store 操作 的 执行 时 间 总 和 比 mult 执行 时 间 小 很 多 (图 
3)， 这 三 部 分 的 开销 可 以 较 容 易 地 被 工作 单元 间 的 流水 线 执行 方式 掩盖 。 然 而 ， 各 操作 间 仍 
存在 资源 冲突 ，Joad; 和 store 之 间 存 在 CPU 主 存 冲突 ，1oad; mult 之 间 存 在 PCIe 
冲突 。 资 源 冲突 导致 流水 线 的 延迟 ， 从 而 降低 DGEMM 的 整体 性 能 。 


笠 运 的 是 ,在 两 个 连续 的 工作 单元 间 我 们 可 以 开发 数据 重用 。 以 图 2 为 例 ， 如 果 我 们 按 
W WU, =C,=A,xB,, WU,-C,-AxB,, WU,-C,- A,xB,. WU, =G, = A, x B, 的 顺序 
调度 工作 单元 , HANER TTE PS REAPER — P SN Y RR IER EA, 这 就 降低 了 资源 ; 
突 的 开销 。 开 发 数据 重用 还 需要 另外 两 个 步骤 : 首先 ， 需 要 一 个 预 处 理 过 程 ， 对 工作 单元 重 
新 排序 ， 结 果 存 放 在 一 个 队列 中 。 我 们 把 C 矩阵 划分 为 条 形 和 矩阵 的 集合 ， 以 整数 (i=0,1...) 
命名 。 每 个 条 形 和 矩阵 再 分 为 矩阵 块 ， 当 i%2=0 时 自 底 向 上 划分 ， 25 i%2=1 时 自 上 而 下 划分 。 
我 们 以 这 种 “ 迁 回 ”的 方式 划分 条 形 和 从 阵 ， 一 个 条 形 咎 阵 顶 部 (或 底部 ) 的 矩阵 块 与 下 一 个 
条 形 算 阵 顶部 (或 底部 ) 的 矩阵 块 相 连 ， 并 将 所 有 矩阵 块 按 序 存 入 队列 。 其 次 ， 我 们 需要 设 
置 两 个 标志 ， 标 出 正在 运行 的 A、B 的 矩阵 块 在 队列 中 的 位 置 ， 避 免 载 入 相同 的 矩阵 块 。 算 
ik 3 给 出 了 结合 数据 重用 优化 的 流水 线 算法 。 


3.3 数据 存储 优化 《Data Placement) 


表 2. 优化 后 DGEMM (算法 4) 的 资源 分 配 情况 
CPU+ 内 存 总 线 PCIe 总 线 


数据 重用 优化 中 A M B 的 矩阵 子 块 
临时 存储 在 GPU 本 地 存储 中 。 我 们 将 A 
和 B 的 远程 存储 空间 设置 为 不 可 缓存 方 
式 ， 因 为 : CD. 矩阵 A FA B 的 数据 传输 
过 程 中 不 需要 计算 ，(2). 远程 存储 的 可 
缓存 部 分 空间 太 小 ,不 能 有 效 加 速 Joaal | 55918: 
操作 的 执行 。 由 于 所 有 工作 单元 中 的 C LStore2 
子 和 矩阵 之 间 不 存在 数据 重用 ， 是 相互 独立 的 ， 且 C 矩阵 作为 最 终 输 出 结果 不 会 重新 使 用 ， 
这 样 看 来 ， 将 C 和 矩阵 存储 在 远程 存储 而 非 GPU 本 地 存储 很 合理 ， 并 且 减 少 了 有 限 显存 空间 
的 占用 。 因 此 上 面 的 三 个 算法 中 , C 矩阵 都 是 存储 在 可 缓存 远程 存储 上 ， 以 期 在 诸如 内 存 间 
数据 拷贝 和 与 beta 的 乘积 等 运算 获得 更 高 的 CPU 性 能 。 


上 述 流 水 线 的 执行 使 得 数据 传输 操作 (loadi、load，、store) 与 乘法 核心 程序 (mult ) 
重 登 ， 流 水 线 的 执行 时 间 基 本 由 mult 时 间 决 定 。 因 此 ， 目 前 的 优化 方向 是 降低 流水 线 中 


load; 
load; 
mult 
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mult 的 执行 时 间 。! 


BORDER 
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T mult 核心 程序 中 包含 数据 传输 操作 ， 和 输出 数据 从 GPU 寄存 器 直 
接 写 回 远程 存储 。 我 们 的 优化 策略 是 在 流水 线 中 增加 一 个 额外 的 阶段 ,这样 输出 数据 到 远程 


存储 的 操作 也 可 以 和 GPU 核心 程序 的 计算 重 受 。 


Partition: A-(A;, Az ..., Ap], B-(B; B5...., Bo], 
C-(C;, C; un Cpu] 
Work unit: WU-(Ci-A;*B;, C;-Ai;*Bs...] 
Cj: the sub-matrices C is partitioned into blocks 
[MT 
bind remote memory for sub-matrices A,B,C 
//pre-processing 
Allocate workunits in a wriggled way 
//the for-loop is pipelined 
2. for each workunit wu; do //i-1,2,...,pxq 
//load1 
3. copy either A; or B; from application space 
into remote memory according to the 
indicators 
//load2 
4. copy either A; or B; from remote memory to 
local memory according to the indicators 
//mult 
5. DMAPipeline(C; 1) 
6. for each block Ci do //j22,3... 
//store2 
7. copy Cijiform remote memory to 
application space (also multiply by beta) 
//mult 
8. DMAPipeline(C;;) 
9. endfor 
//store2 
10. copy the last C; j form remote memory to 
application space (also multiply by beta) 


11. endfor 


算法 4. 


此 我 们 把 矩阵 C 直接 输出 到 远程 存储 的 操作 从 mult 核心 程序 中 分 离 出 来 。 核 心 程 


Algorithm: DMAPipeline(C,;;) 
Cijx: the Cij blocks are further partitioned 
into sub-blocks 
MM 

//multi 
1. calculate C;;; in local memory 
2. for each sub-block C; jx do //k-2,3... 

//storel 

DMA transfer Cijx-1 from local memory 
into remote memory 

//multi 

calculate Cijk in local memory 


3. 


4. 


5. endfor 
//store1 
6. DMA transfer the last Cijk from local 


memory into remote memory 


结合 数据 存储 优化 (Data Placement) 的 DGEMM 


序 产生 的 结果 输出 到 GPU 本 地 存储 ， 而 非 远 程 存储 。 如 算法 4 所 示 ， 先 前 的 mult 操作 分 


成 两 个 阶段 : 
的 


使 得 这 两 个 操作 3 


到 目 


mult, Ñi store, store, i CEREM GPU 本 地 存储 传输 到 远程 存储 。 资 源 
占用 情况 发 生 改变 ,multi 完全 由 GPU 设备 执行 , 而 store; 
于 核心 程序 和 DMA 操作 都 是 异步 执行 ， 我 们 在 显存 中 同样 采用 双 组 存 策略 来 存储 CTER, 
行 执行 。 为 了 表述 更 清晰 ， 以 下 部 分 我 们 用 store, RRE store 操作 。 


前 为 止 , 优化 的 DGEMM 中 建立 了 5 级 流水 线 (loadi、 load, multi. store 


DMA 引擎 传 输 数 据 。| 


storez)， 各 个 操作 的 资源 占用 情况 如 表 2 所 示 。 至 此 我 们 成 功 地 解决 了 第 2 节 提 到 的 


ACML-GPU 中 的 两 个 
ATE, WERT mult ' 
提出 了 更 快速 的 核心 程序 执行 , 而 且 
我 们 绘 出 了 流水 线 的 粗略 时 空 图 (图 


4)， 此 图 只 画 出 了 流水 线 的 大 致 流程 ， 


RU. mult, 核心 程序 只 需要 GPU 资源 ， 不 再 需要 PCIe 总 线 和 系统 
的 PCIe EF, mult, 核心 程序 可 以 与 l0ad，, 
细 化 了 流水 线 , 降低 了 


行 执行 。 算 法 4 不仅 
于 资源 竞争 造成 的 流水 线 延迟 。 
未 考虑 每 个 微 


小 步骤 之 间 的 资源 冲突 情况 。 我 们 用 不 同 的 底 纹 表示 这 五 个 操作 。muJti 块 中 的 条 形 小 块 表 


T mult, Eo EU EA HI TREE UIS Hen 


NA 


束 开 销 ， 


kryt 
NAA! 


操作 。 如 此 图 所 示 ， 除 了 流水 线 的 开始 和 结 


大 部 分 数据 传输 过 程 被 完全 重 至 。 
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WU 1 


WU2 


WU 3 


WU 4 


图 4. 优化 后 的 DGEMM 流水 线 执行 时 空 


4 ”实验 结果 和 分 析 
4.1 实验 建立 


我 们 的 实验 平台 是 2- 路 Intel 


5650 CPU 和 一 个 ATI HD5970 GPU 卡 组 处 理 器 
成 的 异 构 平台 。 表 3 概括 了 实验 平台 的 


时 间 
mult; store store 


DS 


Xeon 3X3. 实验 平台 的 系统 配置 参数 


Intel Xeon X5650 ATI HD5970 


配置 参数 , 其 中 英特尔 的 多 核 CPU 
度 浮 点 峰值 性 能 为 128GFLOP/s。 
内 存 大 小 为 24GB, 带宽 为 31GB/s。 


集成 了 两 个 Cypress 芯片 ， 双 精度 浮 点 


Westmere EP Cypress 


2.66Ghz 725Mhz 


CPU | 芯片 数 


2 2 


GPU | 双 精 度 浮 点 峰值 


128GFLOP/s 928GFLOP/s 


DDR3 1.3Ghz GDDR5 1.0Ghz 


统 双 精 度 浮 点 峰值 性 能 达到 1056G 
FLOP/s。 


为 了 给 出 完整 的 实验 分 析 , 我 们 依次 运行 了 第 3 节 的 三 个 优化 算法 , 其 中 每 个 优化 算法 
我 们 定义 一 些 记号 代表 不 同 的 优化 版 本 。 


昌 双 绥 存 策略 隐藏 从 远程 存储 写 回 到 C 和 窍 阵 到 应 用 空 


都 包含 前 一 种 优化 。 为 方便 描述 ， 


€ DB: 该 程序 执行 算法 2 一 一 利 月 


峰值 性 能 为 928GFLOP/s。GPU 显存 大 
小 为 2GB， 带 宽 为 256GB/s。 该 异 构 系 


24GB 2GB 


31.2GB/s 256GB/s 


x16, 8GB/s 


icc + openmpi ATI Stream SDK 2.2 


间 的 开销 。 程 序 分 配 的 两 个 缓存 大 小 由 显存 中 的 矩阵 大 小 决定 。 


€ DR: 该 程序 执行 流水 线 算法 3， 基 于 DB 优化 并 对 降低 输入 矩阵 的 载 入 开销 进行 了 
改进 ， 其 中 一 个 重要 优化 是 开发 读 入 矩阵 的 数据 重用 。 


上 EF， 该 程序 执行 算法 4, 


@ DP: 在 DB 和 DR 的 基础 


存放 进行 优化 。 其 主要 优化 是 改变 了 外 


有 效 的 流水 线 。 


e HB: 上 述 三 个 程序 单纯 利用 GPU 的 计算 
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针对 CAL 系统 存储 层次 中 的 数据 


ERE C 的 存储 位 置 并 利用 DMA 方式 设计 出 更 


资源 ， 本 程序 实现 了 混合 版 


第 9 卷 第 6 期 信 ， 


BERRY 


Information Technology Letter 


Vol.9 No.6 
Nov. 2011 


DGEMM 一 一 CPU 和 GPU 并 行进 行 矩 阵 乘 法 运算 。 我 们 采用 引文 [21 中 提出 的 CPU 
与 GPU 之 间 负 载 均衡 策略 ， 在 CPU 和 GPU 之 间 进 行 矩 阵 划 分 。 实 验 中 ， 我 们 启动 


和 实验 对 比 来 衡量 本 文 的 优化 效果 。 


表 4 给 出 了 实验 中 用 到 的 矩阵 大 小 (m,n, k). 
没有 影响 ， 因 此 我 们 设 定 m=n。k 的 大 小 决定 了 输入 针 


两 个 MPLT 进程 ， 每 个 进程 使 用 一 对 CPU/GPU. 


这 四 个 程序 代表 了 四 种 优化 策略 ， 程 序 之 间 的 优化 策 
由 于 ACML-GPU" ern fj DGEMM 代码 是 必 


名 包含 情况 为 DB<DR<DP<HB。 
| 用 这 个 代码 作为 我 们 的 初始 实验 


T m. n 值 的 不 同 对 DGEMM 性 能 几乎 
E 阵 A、B 时 的 数据 重用 个 数 ， 影 响 


DGEMM 性 能 。 我 们 取 三 种 k 的 值 代表 不 同 的 数据 ” 表 4. 实验 中 使 用 的 m, n, k 大 小 


4.2 实验 结果 


首先 ,我 们 给 出 优化 的 DGEMM 

在 异 构 系统 上 的 性 能 ,性 能 对 比 的 基 
准 程序 为 ACML-GPU v1.1, [A 5 mj 
出 了 最 终 优化 版 本 DP 和 CPU/GPU 
协同 计算 的 混合 版 DGEMM (HB) 
的 性 能 提升 。 混 合 版 DGEMM (HB- 
2GPU) 最 高 性 能 为 S44GFLOP/s 在 
矩阵 规模 为 (m, n, k) = (16384, 

16384, 4096) 处 取得 , 其 相应 的 效率 
为 80%。 优 化 后 DGEMM 在 GPU 上 
的 CDP-2GPU) 最 高 性 能 为 758 
GFLOP/s 在 矩阵 规模 (m, n, k) = 

(16384, 16384, 4096) 处 取得 ， 对 应 
效率 为 82%。 这 些 结果 说 明 DP- 


EKD, k 分 别 等 于 1536、2048、4096。 在 以 下 部 
分 , 我 们 通过 计算 相同 kk 值 不 同 mm( 或 站 规模 矩阵 的 
性 能 均值 得 出 不 同 k 大 小 对 应 的 三 种 规模 DGEMM 
性 能 值 。 对 于 详细 的 剖析 我 们 默认 以 k=2048 为 例 ， 
不 同 的 矩阵 规模 通过 x 轴 上 的 m(n) 值 表示 。 


m-n 


24576 | 28672 | 32768 


16384 | 20480 


性 能 Gflops/s 


--Q-. Eff-DP --@-- Eff-HB 
HB-2GPU DP-2GPU ACML-GPU 0094 
8096 
9096 
7096 
6096 .. 
50% x 
40% 
30% 
20% 
10% 
0 096 
16384 20480 24576 28672 32768 
和 矩阵 规模 
图 5. 优化 后 DGEMM 性 能 及 效率 
(两 个 MPI 进程 》 


2GPU 是 ACML-GPU 库 中 DGEMM 性 能 的 2 倍 ,混合 版 DGEMM 性 能 进一步 提升 了 


10%-20%。 大 体 来 说 ， 随 着 矩阵 规模 增 大 这 三 个 和 
出 现 了 反常 的 情况 ( 当 m=n =10240 时 )， 因 


序 都 表现 出 性 能 和 效率 的 提升 。 有 的 规模 
为 此 时 的 问题 规模 不 是 最 优 的 数据 传输 和 核心 


程序 执行 时 和 矩阵 块 大 小 的 整数 倍 。 随 着 矩阵 规模 增 大 ，DP 相对 ACML-GPU 的 加 速 比 降低 。 
当天 为 1536、2048、4096， 加 速 比分 别 为 2.9、2.1、1.9 倍 。 这 是 由 于 数据 传输 与 核心 程序 
执行 时 间 的 比例 随 着 问题 规模 的 增 大 而 降低 。 而 我 们 的 流水 线 优 化 是 针对 降低 CPU 与 GPU 
之 间 数 据 传输 的 开销 ,因此 规模 大 的 矩阵 优化 效果 减弱 。 我 们 观察 到 大 规模 矩阵 比 小 规模 矩 


阵 在 GPU 上 相对 而 言 更 容易 获得 高 效率 ， 


因为 小 规模 矩阵 数据 传输 时 间 的 比重 大 。 和 矩阵 规 


横越 小 ， 越 难得 到 好 的 效率 。 并 且 ， 和 矩阵 规模 越 大 ，HB-2GPU 的 性 能 提升 越 快 。 这 是 因为 


7 Message Passing Interface， 消 息 传递 接口 


矩阵 规模 越 大 ，CPU 部 分 DGEMM 的 性 能 越 好 ， 从 而 提升 了 HB-2GPU 的 整体 性 能 。 


其 次 , 我 们 评价 了 第 3 节 提 出 的 三 种 优化 策略 。 为 了 屏蔽 系统 中 的 其 他 干扰 〈 如 带宽 竞 
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节 详 细 介 绍 )， 我 们 在 一 个 GPU 芯片 上 运行 DGEMM 程序 且 


F, RITKE F 


任务 给 CPU, CPU 只 用 来 指导 数据 传输 。 图 6 mh TRER K, £g 
优化 (DB)、 数 据 重用 优化 (DR) 和 数据 存储 优化 (DP). SEA 1 对 比 ， 双 缓存 优化 借 
助 在 一 个 工作 单元 内 部 将 store; 流 水 执行 ， 怕 


不 分 配 计算 
UE 


能 提升 了 16%。 数 据 重 用 优化 由 于 对 不 同 工 


作 单 元 间 的 数据 载 入 操作 流水 执行 ， 进 一 步 使 性 能 提升 了 18%。 最 后 ， 数 据 存储 优化 又 更 
进一步 使 性 能 显著 提升 了 749%， 其 中 我 们 优化 了 原始 的 mult 核心 程序 并 利用 DMA 引擎 


对 C 和 矩阵 的 写 回 操 


GFLOP/s 的 性 能 ， 


30%， 但 这 并 不 是 


工效 率 为 88%。 


作 进 行 流水 处 理 。 在 单个 Cypress GPU 芯片 上 ，DP 优化 算法 达到 了 408 


图 3 中 表示 的 三 个 数据 传输 操作 doad load, 和 store) 占据 了 总 计算 时 间 的 近 
全 部 的 数据 传输 过 程 ， 还 应 加 入 storei 的 执行 时 间 。 我 们 优化 了 流水 算 


法 ,将 store, 从 mult 核心 程序 中 分 离 出 来 。 显 然 ， 这 种 做 法 更 符合 流水 线 的 本 质 。 将 


mult 核心 程序 中 的 store: 计 入 总 数据 传输 时 间 后 ， 总 数据 传输 过 程 占据 了 总 时 间 的 40% 
以 上 。 图 7 给 出 每 个 数据 传输 操作 占 总 数据 传输 时 间 的 百分比 。 从 中 看 
化 策略 得 到 的 性 能 提升 与 各 部 分 数据 传输 时 间 的 分 布 大 体 一 致 , 说 明 我 们 的 优化 使 流水 线 得 


到 了 充分 利用 。 另 外 ， 数 据 存储 优化 使 得 DGEMM 得 到 了 更 
这 一 优化 ， 核 心 程序 的 性 能 也 得 以 提升 。 图 6 中 还 可 以 看 出 ， 优 化 


规模 变化 不 太 敏 感 ， 性 能 比较 平稳 。 这 一 怕 
GPU 的 平台 打下 了 良好 基础 。 本 图 中 在 一 个 GPU 芯片 上 DGEMM Hy 


E 质 为 将 优化 的 DGEMM 扩 


多 的 性 能 提升 ， 这 是 
的 DGEMM H 
展 到 多 个 CPU 和 多 个 
FE 能 平稳 ， 这 与 图 5 


中 异 构 平台 上 得 到 的 性 能 趋势 不 同 。 我 们 将 在 下 一 节 进 一 步 讨论 这 一 现象 。 


store» store? load, load; 


出 , 图 6 中 的 每 种 优 


因为 通过 
E REOS XR PE 


Ju 


图 7， DGEMM 中 四 个 数据 
传输 操作 所 占 百 分 比 


1 DB DR DP 
450 
10096 
400 | 30% 
350 80% 
V 300 E z 70% 
a 250 E à, 60% 
£ E m 50% 
Q 200 B EX 40% 
m 150 E = 30% 
— 100 H z 2096 
sol = z 1096 
0 16384 20480 24576 28672 32768 
矩阵 规模 
Ke. 每 种 优化 方法 的 性 能 提升 
4.3 实验 分 析 
CPU 数学 库 中 DGEMM 的 效率 通常 达到 90% 以 上 , 异 构 


效率 最 高 为 82%。 


优化 空间 ; (2). 
4.3.1 性 能 差距 


在 流水 线 执行 的 五 个 阶段 ，muJIti 核心 程序 决定 了 DGEMM 可 能 达到 的 最 高 性 能 。 中 
里 直人 05 优 化 了 DGEMM 核心 程序 的 性 能 ， 在 HD5870 集成 一 个 Cypress 芯片 ) 上 获得 
的 最 高 效率 是 87%。 我 们 采用 中 里 直人 优化 后 的 核心 程序 。 不 同 的 是 ， 我 们 使 用 ] 


体系 结构 的 参数 怎样 影响 优化 的 DGEMM 在 多 个 CPU/GPU 的 性 
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体系 结构 


0% 
16384 20480 24576 28672 32768 
和 矩阵 规模 


上 混合 版 DGEMM 的 
本 节 我 们 考察 :(1). 我 们 的 流水 线 优化 在 异 构 体 系 结构 上 还 存在 多 大 的 


2u 
£ HE o 


Z] 


fici 
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写 寻 址 模式 ， 而 不 是 全 局 
94%。 


寻 址 模式 。 因 


8 绘 出 了 DGEMM 与 核心 程序 的 效率 对 比 ， 


中 含有 


实现 ( 即 DP 实现 )， 两 个 GPU 卡 的 DP 实现 及 两 个 CPU 与 
我 们 对 每 个 测试 集 求 出 它们 的 平均 效率 。DGEMM 执行 过 程 ， 


现 。 
们 对 每 次 核心 程序 计时 , 最 后 求 出 它们 的 性 
程序 只 读 写 GPU 的 本 地 存储 空间 ， 因 此 它 
效率 超过 9096 (最 优 效率 为 94%), 与 CPU 
CPU 与 GPU 之 间 通 过 内 存 总 线 和 PCIe 总 
盖 数 据 传输 的 开销 。 图 中 的 实验 结果 表示 
序 降低 了 6%。 该 性 能 降低 有 两 个 原 
部 分 大 约 占据 了 DGEMM 总 时 间 的 
固有 的 资源 冲突 ，Joadl 和 store; 
突 。 除 去 这 两 个 因 
到 了 最 优 性 能 


从 


[K]: 首先 ， 
396. 
则 的 内 


Ua 


8 中 还 得 知 ， 当 DGEMM 运行 在 更 
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次 ， 如 
存 总 线 冲突 ， 
素 ， 我 们 认为 优化 的 DGEMM 在 一 个 GPU 芯片 J」 


能 平均 值 作为 最 终 的 核心 程序 性 能 
的 性 能 与 CPU 无 关 。 如 


销 ，DP-1 


图 所 示 ， 核 心 程序 的 平 ] 
DGEMM 效率 相近 。DP 与 核心 程序 的 区 别 
的 数据 传输 的 有 无 ， 本 文通 过 软件 流 


于 数据 传输 开 GPU 
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此 在 一 个 Cypress 芯片 上 ， 我 们 获得 了 更 高 的 效率 : 


一 个 GPU 卡 优化 的 DGEMM 
W^" GPU 的 混合 


版 DGEMM 实 
多 次 调用 核心 程序 ， 我 
。 优 化 的 核心 
HJ 


E 
AE 


IKEE 
的 效率 相 比 核心 程 


流水 线 的 启动 和 终止 时 间 是 不 能 隐藏 的 ， 这 


表 2 所 示 ， 优 化 的 DGEMM 中 仍然 存在 
load, 和 storeil 间 的 PCIe 总 线 ; 
上 实现 DP-1GPU 几乎 达 


多 的 CPU 和 GPU 时 (DP-2GPU 和 HB-2GPU) DP-1GPU DP-2GPU HB-2GPU 
效率 下 降 。 当 在 两 个 GPU 芯片 上 运行 DP 时 9096 

(DP-2GPU), 与 DP-1GPU 相 比 效率 降低 。 8ow| | 
11%。 这 是 因为 两 个 GPU 芯片 上 运行 的 sd 11 1 
DGEMM， 都 需要 通过 内 存 总 线 和 PCIe 总 线 。” Mbsox| || 
进行 CPU 和 GPU 之 间 的 数据 传输 ， 加 剧 了 40% 
这 两 条 总 线 的 资源 竞争 。 另 外 ， 当 DGEMM 20% i 
扩展 到 两 个 CPU 和 两 个 GPU 的 异 构 系统 时 10% 

(HB-2GPU), 效率 相 比 DP-2GPU 降低 5%. 0% — "1536 2048 4096 
HB-2GPU 中 CPU 运行 部 分 矩阵 的 DGEMM ， AE FERIAS (人 

与 GPU 共享 同一 应 用 空间 , 进一步 加 重 了 内 图 8. 扩展 到 多 个 GPU/CPU 时 
存 总 线 负 担 。 增 加 的 系统 内 存 竞争 使 得 优化 后 DGEMM 的 效率 
HB-2GPU 的 效率 低 于 DP-2GPU。 我 们 将 在 接 下 来 的 两 节 详 细 讨 论 这 两 种 资源 竞争 。 


4.3.2 多 个 GPU 上 的 扩展 性 


目前 大 多 数 
的 多 个 PCIe 插 模 可 以 同时 
Radeon HD5970 和 NVIDIA Tesla S1070。 因 J 
题 也 很 重要 。 由 于 实验 平台 的 限制 ， 实 验 ， 


支持 多 个 GPU XE 


加 速 器 (如 GPU, ClearSpeed, Tilera) 通过 PCIe 总 线 与 CPU 相连 ， 主 板 上 
接 。 有 些 GPU 卡 集成 了 多 个 GPU 芯片 ， 如 ATI 
比 ， 优 化 的 DGEMM 在 多 个 GPU 
运行 两 个 MPI 进程 ， 每 个 进程 负 


片 的 运行 。 由 于 影响 DGEMM 扩展 性 的 关键 


个 GPU 芯片 之 间 的 带宽 竞争 来 预测 多 个 GPU 上 DGEMM 的 扩展 性 。 


上 的 扩展 性 问 
责 一 个 GPU 


ERE 
FIM 


因素 是 共享 资源 竞争 , 如 PCIe 总 线 和 内 存 总 线 ， 
用 两 个 GPU 芯片 的 性 能 来 预测 DGEMM 在 多 个 GPU 上 的 性 能 是 可 行 的 。 实 验 试 


ba 


从 一 个 GPU 芯片 到 两 个 GPU 芯片 的 有 
矩阵 规模 与 DP-1GPU 相同 。 从 表 21 


效 带宽 


变化 ， 


其 中 DP-2GPU 中 每 个 MPI 进程 
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可 以 看 出 ，PCIe 总 线 和 内 存 总 线 都 存在 


实验 剖析 了 DGEMM 


运行 的 
HE ppe az 


ETY Wi vu 
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为 了 突出 带宽 变化 ， 我 们 将 DP-2GPU 上 的 
PCIe 和 内 存 带 宽 相 对 DP-1GPU 的 带宽 进行 归 一 
化 。 首先 , 我 们 考虑 load) 和 storel 之 间 的 PCIe 
带宽 竞争 情况 。 图 9 显示 了 平均 带宽 的 降低 ，y 轴 
表示 归 一 化 后 的 相对 带宽 。 如 图 所 示 ，J 了 oad> 和 
store, 的 有 效 带宽 分 别 达到 DP-1GPU 的 89965 
5696. HF PCIe 传输 得 更 加 频繁 并 且 需 要 传输 的 
数据 规模 更 大 《〈 和 拖 阵 C 的 大 小 大 于 和 矩阵 A 与 B 的 
大 小 之 和 )， 故 store; 的 带宽 下 降幅 度 更 大 。 正 
如 3.3 节 提 到 的 ,为 充分 利用 流水 线 ,muJIti 核心 
程序 将 子 矩 阵 进 一 步 划 分 为 更 小 的 子 块 。 每 个 
storei 操 作 一 个 更 小 的 矩阵 子 块 .- multi 运行 时 ， 
JLA storei 同 时 执行 (根据 核心 程序 计算 的 子 块 
大 小 , 我 们 的 实验 中 是 4 个 storei 与 1 个 multi 
同时 执行 )。multi 执 行 时 间 内 ，PCIe 带宽 可 认为 
被 storei 占用 ， 这 样 即使 在 一 个 GPU 芯片 运行 
的 DGEMM，storei PCIe 带宽 占用 率 已 经 很 
高 。 因 此 ， 当 扩展 到 两 个 GPU 芯片 时 ，PCIe 总 线 
的 竞争 变 得 更 加 激烈 。 然 而 ，J1oaa: 过 程 中 PCIle 
有 效 带宽 的 下 降 并 没有 像 store 这 样 严 重 。 这 是 
因为 load, 与 mult, 核心 程序 是 工作 单元 间 的 流 
水 ， 而 非 storei 与 multi 的 工作 单元 内 部 流水 ， 
因此 对 PCIe 的 请 求 不 如 storel 频 繁 .另外 ,1Ioaoa> 
传输 的 和 矩阵 规模 为 (m+n) xk ， 而 store, 传输 
的 矩阵 规模 为 mxn. HF k 比 n 小 很 多 ， 因 此 前 
者 对 PCIe 总 线 的 压力 较 小 。 


其 次 , 由 于 传输 数据 也 发 生 在 应 用 空间 和 CAL 的 远程 存储 上 , 因此 除了 PCIe 带宽 竞争 
两 个 GPU 芯片 上 还 存在 内 存 总 线 竞 争 。 图 10 表示 Load, 和 store, 的 有 效 内 存 带宽 分 别 下 
降 了 8% 和 14%。 与 PCIe 带宽 下 降 的 原因 类 似 ，store, 的 带宽 下 降 更 明显 。 


Te Load; Store, 

] p 

80% 
0 | | E 
m H pmi 

60% 
«* | :: = B ps 
F sow| E i 
20% — E 
0% 153 4096 


6 2048 
和 矩阵 规模 (0 
图 9. DGEMM 在 一 个 GPU 卡 和 两 个 
GPU 卡 上 PCIe 相对 带宽 百分比 


Load, Store; 


2048 
AB EE AUS (9 
E10. DGEMM 系统 内 存在 一 个 和 两 个 
GPU 卡 上 的 利用 率 相 对 百分比 


Ed 


通过 对 流水 线 执行 过 程 的 分 析 ， 我 们 发 现在 DP-1GPU F, load;. load». store 


storez 基 本 被 mult 全 部 掩盖 。 然 而 ， 图 8 显示 有 效 带宽 的 降低 仍然 导致 DP-2GPU 的 


效率 降低 11%。 这 说 明 共 享 资源 的 竞争 (PCIe 带宽 和 内 存 带宽 ) 阻止 了 部 分 数据 传输 过 程 


与 mult OFTES. MA GPU 数目 增加 ， 和 带宽 的 请 求 会 更 加 频繁 ， 加 剧 带 宽 竞 争 对 整 
体 性 能 的 影响 。 综 上 ， 当 DGEMM 从 1 个 GPU 芯片 扩展 到 2 个 GPU 芯片 时 ，PCIe 和 系统 


内 存 的 带宽 都 下 降 。 基 于 这 些 实验 结果 ， 我 们 得 至 


j 以 下 两 个 结论 ; 


e 结论 1: 由 于 PCIe 带宽 的 限制 ，DGEMM 在 同一 主板 上 多 个 GPU 卡 的 扩展 性 受 限 。 


DGEMM 中 load, 和 storei 都 使 用 PCIe 带宽 ， 如 图 7 所 示 ， 这 两 个 操作 占 DGEMM 
总 数据 传输 时 间 的 60%。 图 8 的 实验 结果 给 出 了 竞争 导致 的 两 个 GPU 芯片 上 DGEMM 
(DP-2GPU) 的 效率 降低 。 随 着 GPU 数目 的 增多 ，PCIe 竞争 增强 ，DGEMM 的 效率 受 


到 的 影响 增 大 。 


e 结论 2: 改善 系统 内 存 带宽 ，GPU-only DGEMM (DP-1GPU 和 DP-2GPU) 的 性 


能 
ARH. BA load 和 store:z 都 占用 内 存 带宽 ， 但 从 图 10 得 出 ， 它 们 对 内 存 带 宽 
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的 竞争 敏感 度 较 低 , 如 图 7 所 示 , 这 两 部 分 的 执行 时 间 并 不 是 数据 传输 时 间 的 主要 部 分 。 
虽然 在 茶 些 情况 下 ,固定 内 存 的 使 用 可 避免 Toad; 和 store; 3849. 但 使 用 固定 内 存 
的 前 提 是 数据 不 会 被 重新 分 配 , 且 数 据 规模 小 于 固定 内 存 的 限制 。 我 们 的 工作 证 明了 这 

部 分 的 传输 开销 同样 可 以 通过 算法 优化 来 降低 。 


4.3.3 混合 CPUs 和 GPUs 的 扩展 性 


我 们 的 混合 实验 平台 上 ，Intel Xeon CPU 提供 


会 


度 浮 点 性 外 
容 忽视 。 
分 都 分 别 由 一 对 CPU/GPU 
在 CPU 和 GPU 之 间 划 分 
了 5%， 本 节 分 析 效 率 下 降 


图 
CPU 部 分 〈 记 为 CPU-HB) 
Pure-CPU) 作为 对 比 程序 ， 
DGEMM CPU 部 分 性 能 比 


在 混合 版 DGEMM 的 HB-2GPU 实现 ， 


3 


EI] 12%。 对 计算 密集 型 程序 (如 DGEMMO 作 性 能 优化 时 ，CPU 的 计算 能 力 不 


计算 。 每 对 CPU/GPU 中 


F 务 。 虽 然 HB-2GPU 相对 DP-2GPU ， 


的 原因 。 


8 给 出 了 DGEMM 在 混合 CPUs/GPUs 系统 上 DGEMM 的 效率 。 我 们 在 图 


Al 


对 HB-2GPU [fj ER 
Pure-CPU itf 
Pure-CPU 降 


E UTR 


E 阵 规 


DGEMM 也 需要 从 应 月 


年 


造成 干扰 ， 导 致 CPU 内 存 竞 
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业主 
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128GFLOP/s 的 计算 能 力 ， 占 系统 双 


MH 


先 被 划分 为 均等 的 7 
， 我 们 采 


两 部 分 ， 每 部 
3 引文 [21] 中 描述 的 划分 算法 
生 能 提升 了 6%， 效 率 却 下 降 


11 中 分 析 
i CPU 版 的 DGEMM 程序 〈 记 为 
显示 混合 版 


。 单 纪 
模 与 CPU-HB 相同 。 该 图 


K 22%。 这 是 由 于 混合 版 DGEMM 中 GPU 计算 的 
日 空间 到 CAL 远程 存储 拷贝 数据 ， 从 而 对 DGEMM CPU 部 分 的 计算 
为 激烈 。 我 们 从 中 得 出 结论 : 


e 结论 3: 改善 系统 内 存 带 宽 有 利于 降低 内 存 竞 争 ， 从 而 提高 混合 版 DGEMM 在 
CPUs/GPUs 异 构 系统 的 性 能 . 随 着 CPU 计算 能 力 的 增强 , 系统 内 存 竞争 对 混合 DGEMM 
的 整体 性 能 影响 会 增 大 。 固 定 内 存 的 使 用 将 有 利于 降低 内 存 竞争 。 
H = 
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图 11. 混 合 版 DGEMM 中 CPU 部 分 与 


纯 CPU 版 DGEMM H 


能 对 比 


16384、20480、24576、28672、32768 


[ 务 负载 
txt DGEMM 的 影响 


图 12.CPU 和 GPU f 
不 了 
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另 一 个 效率 降低 的 原因 是 CPU 与 GPU 之 间 负 载 的 不 均衡 。 我 们 采用 局 发 式 的 划分 策略 ， 


使 得 CPU 与 GPU 的 执行 时 间 差距 在 一 定 阐 值 内 。 根 据 多 次 实验 总 结 ， 本 文 的 闵 值 取 为 0.1 


12 iHi tH. CPU 与 GPU 执行 时 间 的 相对 差异 ， 纵 多 


b. 


间 ) /CPU WFW, 3X8 
196). 
5 ”其 他 相关 工作 


先前 有 


te LAESA 


上 微 的 不 均衡 性 导致 了 混合 版 DGEMM EHI 


E 阵 规模 小 于 显存 的 DGEMM 进行 了 GPU 优化 。! 
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植 性 ， 并 打 


CPU/ATI GPU 混合 体系 结构 上 DGEMM 的 性 


Li 


出 了 新 的 DGEMM 核心 程序 051,， 核 
化 的 DGEMM 核心 程序 性 
Chris Jang) 提出 的 GATLAS 


能 在 HD5970 的 
zJ] Va 628 P9 TRI 


能 研究 


心 程 序 性 能 达到 了 GPU 峰值 性 能 的 8796. 我 
一 个 Cypress 芯片 上 达到 了 94%。 张 (音译 ， 
自动 调 优 方法 加 强 不 同 GPU 结构 上 的 可 移 
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算 在 真实 应 用 中 调用 。GATLAS 


ESL 


E 还 没有 


直接 的 方式 在 真实 应 用 中 调用 


LILA 


Demmel) 在 混合 CPU/GPU 系统 | 
| CPU 和 GPU 上 
况 ， 不 存在 CPU 
化 ， 均 未 考 虚数 据 传输 过 下 
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显存 的 情 
的 性 能 全 


还 有 一 


上 实现 了 单 边 
使 其 同时 执行 。 但 其 
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[ri] FÉ ^N 关 ü 


E 了 和 矩阵 可 以 存 入 GPU 显存 的 情况 ， 


GATLAS. iX/ZK REX CV. Volkov) 和 德 梅 尔 (J. 
的 矩阵 分 解 CLU, QR 等 ) ! 轨 ， 他 们 将 分 解 过 
中 的 矩阵 乘法 仍然 只 针对 和 矩阵 能 存放 在 GPU 


与 GPU 间 的 数据 传输 。 此 外 还 有 很 多 工作 针对 GPU 上 特定 程序 


时， 这 里 不 


I: 


A 


些 工作 虽然 考虑 了 数据 传 


程 并 行 ， 
乌 杜 科 CR. 


之 间 的 数据 传输 , 混合 程序 的 


Suda) 在 多 


CPU 的 多 线程 来 进行 优化 。 当 一 个 线程 等 待 GPU 访 存 结束 的 信号 时 ，CPU FF 
执行 其 他 的 外 


并 未 设法 


降低 数据 传输 的 
在 混合 CPU/GPU 


Me XE 
WHER 


Vuduc) 


F 销 , 但 他 们 
塔 苏 布 拉 玛 尼 安 〈S. Venkatasubramanian ) 和 


列举 。 
大 多 集中 于 实现 CPU 和 GPU 的 计算 过 


NE 


算法 


E 能 提升 仅 8%. f 


友 比 算法 已 。 他们 考虑 了 CPU 与 GPU 
F 达 奇 (音译 ， DaQi Ren) 和 须 田 玲 齿 (Reiji 


H Ske 


核 CPU/GPU 系统 上 实现 了 大 规模 入 


E 阵 乘法 中。 他 们 的 关注 点 是 能 耗 问题 ， 利 用 
启 一 个 新 线程 


E 务 。 这 种 方法 使 得 GPU 可 以 和 C 


个 执行 过 程 停滞 ， 从 而 浪费 CPU 和 GPU 的 计算 能 力 。 
合 CPU/GPU 集群 上 实现 了 并 行 的 格子 波 尔 兹 曼 (Lattice Boltzmann) 方法 5 呜 。 他 们 通过 只 
传输 偏 微 分 方程 的 边界 值 使 传输 数据 量 最 小 化 ,他 们 认为 负载 不 ] 


明显 的 原 攻 


之 一 。 阿 加 塔 (Y. Ogata 


速 


系统 上 优化 DGEMM 时 采 月 
大 规模 DGEMM 在 


输 。 我 们 不 


Di RE. DX 


) 等 人 提 昌 


PU 同时 进行 计算 ， 而 数据 传输 仍然 会 造成 整 
费 彻 廷 格 〈C. Feichtinger) 等 人 在 混 


均衡 是 导致 


CPU/GPU 系统 


E 能 提升 效果 不 
上 的 异 构 快 


上 了 基于 模型 的 


结 里 叶 变换 库 g]。 这 一 模型 更 好 地 指导 CPU 与 GPU 之 间 计算 任务 的 划分 。 我 们 在 异 构 
引文 [2 了 中 的 自 适应 划分 算 


异 构 CPU/GPU 体系 结构 


法 解决 了 这 个 问题 我们 的 工作 关注 
中 包含 CPU 与 GPU 之 间 的 数据 传 


的 实现 ， 


仅 将 数据 传输 计 入 总 时 间 ， 而 且 用 家 


DGEMM 性 能 达到 844GFLOP/s， 对 应 效率 80 
掩盖 数据 传输 的 开销 20， 采 月 


6 


给 


结论 


我 们 通过 三 种 策略 〈 双 缓存 优化 ， 数 据 习 


DGEMM, 得 到 了 一 个 新 的 流水 线 算 法 。 在 流水 线 ! 
的 执行 与 数据 传输 过 程 
到 408GFLOP/s， 效 率 为 88%。 在 ATI HD5970 | 


H 


Ec. LRI DGEMM 


此 ， 混 合 版 DGEMM 可 以 在 实际 应 用 中 调用 。 通 过 我 们 的 优化 ， 混 合 版 


和 优化 的 DGEMM 在 多 个 CPU 和 多 个 GPU 上 的 可 扩 
了 一 些 对 DGEMM 扩展 到 异 构 CPUs/GPUs 体系 结构 的 建议 。 


和 水 线 算法 对 其 进行 优化 ,使 得 这 部 分 开销 


H 


%。 杨 灿 群 等 人 提出 了 用 DGEMM 计算 过 程 


的 优化 方法 有 数据 载 入 流水 和 数据 输出 流水 。 我 们 还 发 展 了 
数据 存储 优化 策略 改进 DGEMM oe FE T 
略 使 DGEMM 性 能 提升 了 74%， 成 为 最 重要 的 优化 手段 。 另 儿 
别 是 PCIe 总 线 和 系统 内 存 ) I 3654 
性 。 通 过 分 析 ， 我 们 


的 流水 线 。 这 新 增 的 优化 策 
， 我 们 分 析 了 共享 资源 〈 特 


INT 
E 
长 


并 建立 了 更 细 


-各 已 
tHE 


用 优化 和 数据 存储 优化 ) 优化 了 大 规模 
， 我 们 将 DGEMM 核心 程序 在 GPU I 
在 一 个 ATI HD5970 Cypress 芯片 上 的 性 能 ; 
上 性 能 为 758GFLOP/s， 效 率 为 82%。 在 异 


KJ CPU/ATI GPU 系统 上 ， 混 合 版 DGEMM 性 能 达到 峰值 性 能 的 8096 -- 844GFLOP/s。 与 核 


心 程 序 的 性 
优化 空间 不 大 。 然 而 ， 当 DGEMM 扩展 


能 对 比 可 以 看 出 , 优化 的 DGEMM 


A 


影响 ， 主 要 影响 因 
我 们 得 出 三 


met 


ESEDR ; 


个 结论 : (1). | 


(20. 改善 系统 内 
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1 多 个 GPU 和 多 个 CPU 时 ，DGEMM 的 效率 受 3 
素 是 共享 资源 的 竞争 ， 特 别 是 PCIe 和 系统 内 存 竞 争 。 通 过 实验 和 分 析 ， 
T PCIe 带宽 的 限 外 
存 带宽 ，GPU-only DGEMM (DP-1GPU 和 DP-2GPU) 的 性 


在 一 个 GPU 芯片 上 的 效率 接近 峰值 ， 进 一 步 


到 


BJ, DGEMM 在 同一 主板 上 多 个 GPU 卡 的 扩 


T 


2u 
t H5 
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会 有 所 提升 ，(3). 改善 系统 内 存 带 宽 有 利于 降低 系统 内 存 竞争 ， 从 而 提高 混合 版 DGEMM 
在 CPUs/GPUs 异 构 系 统 的 性 能 。 


参考 文献 : 


[1] J. J. Dongarra, J. Du Croz, I. S. Duff, and S. Hammarling, A set of Level 3 Basic Linear Algebra 
Subprograms, ACM Trans. Math. Soft., 16 (1990), pp. 1--17. 


[2] E. Anderson, Z. Bai, C. Bischof, J. Demmel, J. Dongarra, J. DuCroz, A. Greenbaum, S. Hammarling, 
A. McKenney, D. Sorensen, LAPACK: A Portable Linear Algebra Library for High-Performance 
Computers, UT-CS-90-105, May 1990. 


[3 HPL - A Portable Implementation of the High-Performance Linpack Benchmark for 
Distributed-Memory Computers http://www.netlib.org/benchmark/hpl/ 


[4] NVIDIA. Compute Unified Device Architecture Programming, Guide Version 3.2, 


[5] D. Kirk and W. W. Hwu. ECE 489AL Lectures 8-9: The CUDA Hardware Model, 
http://courses.ece.illinois.edu/ece498/al/Archive /Spring2007/lectures/lecture8-9-hardware.ppt, 2007. 


[6] AMD. ATI Stream SDK CAL Programming Guide v2.0, 2010. 


[7] AMD Core Math Library for Graphic Processors (ACML-GPU) 
http://developer.amd.com/gpu/acmlgpu/pages/default.aspx 


[8] NVIDIA. CUDA Community Showcase. http://www.NVIDIA.com/ object/ 
cuda apps flash, new.html. 


[9] J. Demmel, J. Dongarra, V. Eijkhout, E. Fuentes, A. Petitet, R. Vuduc, R. C. Whaley and K. Yelick. 
Self-Adapting Linear Algebra Algorithms and Software, Proceedings of the IEEE, Volume 93, 
Number 2, pp 293-312, February, 2005. 


[10] Goto, K., and Geijn, R. A. v. d. Anatomy of high-performance matrix multiplication. ACM 
Trans.Math. Softw. 34, 3 (2008), 1-25. 


[11] Nath, R., Tomov, S., Dongarra, J. An Improved MAGMA GEMM for Fermi GPUs, University of 
Tennessee Computer Science Technical Report, UT-CS-10-655 (also LAPACK working note 227), 
July 29, 2010. 


[12] Volkov, V., and Demmel, J. W. Benchmarking GPUS to tune dense linear algebra, 2008 ACM/IEEE 
Conference on Supercomputing (SC08). 


[13] Ryoo, Shane and Rodrigues, Christopher I. and Baghsorkhi, Sara S. and Stone, Sam S. and Kirk, 
David B. Optimization principles and application performance evaluation of a multithreaded GPU 
using CUDA, Proceedings of the 13th ACM SIGPLAN Symposium on Principles and practice of 
parallel programming (PPoPP'08), pp. 73-82, 2008. 


[14] Ryoo, Shane and Rodrigues, Christopher I. and Stone, Sam S. and Baghsorkhi, Sara S. and Ueng, 
Sain-Zee. Program optimization space pruning for a multithreaded GPU, Proceedings of the 6th 
annual IEEE/ACM international symposium on Code generation and optimization (CGO’08), pp. 
195-204, 2008 


[15]  N.Nakasato. A Fast GEMM Implementation On a Cypress GPU, 1st International Workshop on 
Performance Modeling, Benchmarking and Simulation of High Performance Computing Systems 
(PMBS 10). 2010. 


[16] H.Wong, M.Papadopoulou, M. Sadooghi-Alvandi, A.Moshovos. Demystifying GPU microarchitec- 
ture through microbenchmarking, IEEE International Symposium on Performance Analysis of 
Systems and Software, March 2010. 


[17] GTan, Z.Guo, M.Chen, D.Meng. Single-particle 3D Reconstruction from Cryo-Electron Microscopy 
Images on GPU, 23rd ACM International Conference on Supercomputing (ICS'09), 2009, 
pp.380-389. 


26 


CPU/ATI GPU 混合 体系 结构 上 DGEMM 的 性 能 研究 


[18]  G Tan, N.Sun and G.R.Gao. Improving Performance of Dynamic Programming via Parallelism and 
Locality on Multi-core Architectures, IEEE Transactions on Parallel and Distributed Systems, Vol.20, 
No.2, 2008, pp. 261-274. 


[19] Li, Y., Dongarra, J., and Tomov, S. A Note on Auto-tuning GEMM for GPUs. In Proceedings of 
ICCS'09 (Baton Rouge, LA, USA, 2009). 


[20] Jang, C. GATLAS GPU Automatically Tuned Linear Algebra Software, http://golem5.org/gatlas/. 


[21] Canqun Yang, Feng Wang, Yunfei Du, Juan Chen, Jie Liu, Huizhan Yi, Kai Lu, "Adaptive Optimiza- 
tion for Petascale Heterogeneous CPU/GPU Computing," cluster, pp.19-28, 2010 IEEE International 
Conference on Cluster Computing, 2010 


[22] J. Dongarra, P. Beckman, Terry Moore, et al. The International Exascale Software Project roadmap. 
IJHPCA 25(1): 3-60 (2011) 


[23] Sundaresan Venkatasubramanian, Richard W. Vuduc Tuned and wildly asynchronous stencil kernels 
for hybrid CPU/GPU systems. In Proceedings of the 23rd international conference on Supercomput- 
ing (ICS '09). ACM, New York, NY, USA, 244-255. 


[24] Christian Feichtinger, Johannes Habich, Harald Kóstler, Georg Hager, Ulrich Rüde, Gerhard Wellein. 
A Flexible Patch-Based Lattice Boltzmann Parallelization Approach for Heterogeneous GPU-CPU 
Clusters. CoRR, 2010 


[25] DaQi Ren, Reiji Suda, "Power Efficient Large Matrices Multiplication by Load Scheduling on 
Multi-core and GPU Platform with CUDA," cse, vol. 1, pp.424-429, 2009 International Conference 
on Computational Science and Engineering, 2009 


[26] Mark Silberstein, Assaf Schuster, and John D. Owens. Accelerating sum-product computations on 
hybrid CPU-GPU architectures. In Wen-mei W. Hwu, editor, GPU Computing Gems, volume 2, 
chapter 9. Morgan Kaufmann, August 2011 To appear 


[27] Ogata, Y.;; Endo, T; Maruyama, N.; Matsuoka, S.; , "An efficient, model-based CPU-GPU 
heterogeneous FFT library" Parallel and Distributed Processing, 2008. IPDPS 2008. IEEE 
International Symposium on , vol., no., pp.1-10, 14-18 April 2008 


作者 简介 : 

李 佳 佳 : ”计算 技术 研究 所 2010 级 博士 研究 生 lijiajiagict.ac.cn 
李 兴 建 : ”计算 技术 研究 所 2008 级 硕士 研究 生 

谭 光 明 : ”计算 技术 研究 所 副 研究 员 


C 上 接 第 42 页 ) 


[37] C. Bienia, S. Kumar, J.P. Singh, and K. Li, “The PARSEC benchmark suite: characterization and 
architectural implications", in Proceedings of international conference on Parallel architectures and 
compilation techniques, pp:72-81, 2008. 


作者 简介 : 
TREE: ”中 国 科学 院 计算 技术 研究 所 ， 计 算 机 体系 结构 国家 重点 实验 室 “博士 研究 生 


fubinzhang@ict.ac.cn 


[s 


"i 


韩 银 和 : ” 中国 科学 院 计 算 技 术 研究 所 ， 计 算 机 体系 结构 国家 重点 实验 室 ” 副 研究 员 ， 硕 
士 生 导师 

李 华 伟 : ”中 国 科 学 院 计算 技术 研究 所 ， 计 算 机 体系 结构 国家 重点 实验 室 ”研究 员 ， 博 士 
^E SE 

李 晓 维 : ”中 国 科 学 院 计算 技术 研究 所 ， 计 算 机 体系 结构 国家 重点 实验 室 ”研究 员 ， 博 士 
^E SE 


27 


